Flamingo: a Visual Language Model for Few-Shot Learning
https://arxiv.org/abs/2204.14198
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
Figure 1
画像とテキストを言語モデルに入れる(マルチモーダル)